'''
第二步,获取B类链接
起始就是通过起始页面,获取所有的下一页
'''
from bs4 import BeautifulSoup as BS
import os,xlwt,xlrd,traceback
from urllib import request
from xlrd import open_workbook
from xlutils.copy import copy

'''
:param    start_url:必须有一个起始的url
'''
def step2(start_url):
    html=request.urlopen(start_url).read()
    soup=BS(html,"lxml")
    urls_=[]
    # 最直接的,尝试抓取下一页的a标签,看能否成功,如果不能,说明是动态数据,要换别的方法
    a_=soup.find_all("a",attrs={"href":"/zufang/pg2/"})
    print(a_)
    # divs_是空,所以不能直接抓取下一页
    # 尝试抓取它的父节点div
    div_=soup.find_all("div",attrs={"class":"page-box house-lst-page-box"})
    print(div_)
    # 还是空,链家网只提供100个页面的数据,而且每一页的url有规律,所以直接拼接所有的下一页
    # 测试不用太多,10个足够
    for i in range(1,100):
        urls_.append("https://sz.lianjia.com/zufang/pg"+str(i))
    print(urls_)
    return urls_

# 测试
# step2("https://sz.lianjia.com/zufang/")